9 research outputs found

    Code-Switching fenomenoaren detekzio automatikoa Twiter-eko txioetan

    Get PDF
    Proiektu honen helburua Twitter-eko txioetan euskara-gaztelaniazko code-switching de- lako fenomeno linguistikoa aztertzea da. Horretarako, errealitatearen corpus adierazga- rri bat sortu da, euskarazko, gaztelaniazko eta txio elebidunak bilduz, hainbat pertsonaia publiko eta bestelako erabiltzaileengandik. CRF sekuentzia etiketatzailea erabili da sis- temari ezagutza emateko, algoritmo honek datu sekuentziak tratatzeko duen izaeragatik. CRF algoritmoaren doiketa izan da proiektuaren atal nagusia, asmatze-tasen hobekun- tza lortzeko asmoz. Emaitza gisa, denbora errealean, streaming bidez, lortutako txioen code-switching-a analizatuko duen aplikazioa sortu da, non bilaketak erabiltzaile konkre- tu baten edo hitz konkretu baten arabera egiteko aukera dagoen. Gainera, EUS-ES code- switching fenomenoaren detekzio automatikoan lehen urratsak ematea bilatu da, etorki- zuneko proiektuentzat abiapuntua finkatuko duen proiektua burutuz

    Code-Switching fenomenoaren detekzio automatikoa Twiter-eko txioetan

    Get PDF
    Proiektu honen helburua Twitter-eko txioetan euskara-gaztelaniazko code-switching de- lako fenomeno linguistikoa aztertzea da. Horretarako, errealitatearen corpus adierazga- rri bat sortu da, euskarazko, gaztelaniazko eta txio elebidunak bilduz, hainbat pertsonaia publiko eta bestelako erabiltzaileengandik. CRF sekuentzia etiketatzailea erabili da sis- temari ezagutza emateko, algoritmo honek datu sekuentziak tratatzeko duen izaeragatik. CRF algoritmoaren doiketa izan da proiektuaren atal nagusia, asmatze-tasen hobekun- tza lortzeko asmoz. Emaitza gisa, denbora errealean, streaming bidez, lortutako txioen code-switching-a analizatuko duen aplikazioa sortu da, non bilaketak erabiltzaile konkre- tu baten edo hitz konkretu baten arabera egiteko aukera dagoen. Gainera, EUS-ES code- switching fenomenoaren detekzio automatikoan lehen urratsak ematea bilatu da, etorki- zuneko proiektuentzat abiapuntua finkatuko duen proiektua burutuz

    Corrección gramatical para euskera mediante una arquitectura neuronal seq2seq y ejemplos sintéticos

    Get PDF
    Sequence-to-sequence neural architectures are the state of the art for addressing the task of correcting grammatical errors. However, large training datasets are required for this task. This paper studies the use of sequence-to-sequence neural models for the correction of grammatical errors in Basque. As there is no training data for this language, we have developed a rule-based method to generate grammatically incorrect sentences from a collection of correct sentences extracted from a corpus of 500,000 news in Basque. We have built different training datasets according to different strategies to combine the synthetic examples. From these datasets different models based on the Transformer architecture have been trained and evaluated according to accuracy, recall and F0.5 score. The results obtained with the best model reach 0.87 of F0.5 score.Las arquitecturas neuronales secuencia a secuencia constituyen el estado del arte para abordar la tarea de corrección de errores gramaticales. Sin embargo, su entrenamiento requiere de grandes conjuntos de datos. Este trabajo estudia el uso de modelos neuronales secuencia a secuencia para la corrección de errores gramaticales en euskera. Al no existir datos de entrenamiento para este idioma, hemos desarrollado un método basado en reglas para generar de forma sintética oraciones gramaticalmente incorrectas a partir de una colección de oraciones correctas extraídas de un corpus de 500.000 noticias en euskera. Hemos construido diferentes conjuntos de datos de entrenamiento de acuerdo a distintas estrategias para combinar los ejemplos sintéticos. A partir de estos conjuntos de datos hemos entrenado sendos modelos basados en la arquitectura Transformer que hemos evaluado y comparado de acuerdo a las métricas de precisión, cobertura y F0.5. Los resultados obtenidos con el mejor modelo alcanzan un F0.5 de 0.87

    Características epidemiológicas de las nuevas infecciones causadas por el VIH comparadas con los casos de sida. La epidemia de VIH/sida en el País Vasco

    Get PDF
    ResumenObjetivoDescribir las características epidemiológicas de los nuevos diagnósticos de infección por el VIH en el período 1997- 2001 y comparlas con los casos de sida (1991-2001).MétodosSe han recogido retrospectivamente los datos de las nuevas infecciones por el VIH ocurridas en el País Vasco (1997-2001) y se han comparado con los casos de sida (1991- 2001).ResultadosSe han diagnosticado 912 nuevas infecciones por el VIH. El diagnóstico de VIH coincidió con el de sida en 299 (32,8%) de las nuevas infecciones. Las relaciones heterosexuales han sido el mecanismo de transmisión más frecuente, seguido de la transmisión por vía parenteral y las relaciones homosexuales y bisexuales, con diferencias significativas (p < 0,001) respecto a los casos de sida.ConclusionesLa transmisión sexual ha reemplazado al consumo de drogas por vía parenteral como mecanismo más frecuente de transmisión del VIH. Hay un alto porcentaje de pacientes con diagnóstico simultáneo de VIH y sida. Estos datos indican la necesidad de realizar nuevas estrategias de prevención.SummaryObjectiveTo describe the epidemiological characteristics of new cases of HIV infection diagnosed from 1997-2001 and compare them with AIDS cases (1991-2001).MethodsData were retrospectively collected on new cases of HIV infection detected in the Basque Country (1997-2001) and were compared with AIDS cases (1991-2001).ResultsA total of 912 new cases of HIV infection were diagnosed. In 299 of the new cases (32.8%), HIV and AIDS were diagnosed simultaneously. The most common mechanism of transmission was heterosexual transmission, followed by intravenous and homo/bisexual transmission. Significant epidemiological differences (p < 0.001) were found with regard to AIDS cases.ConclusionsSexual transmission has replaced intravenous drug use as the most common mechanism of HIV transmission. A large percentage of patients were simultaneously diagnosed with HIV and AIDS, indicating the need for new prevention strategies

    Estrategias de clasificación bilingüe de intenciones para escenarios con conjuntos de datos reducidos

    Get PDF
    This paper explores various approaches for implementing bilingual (Spanish and Basque) intent classifiers in cases where limited annotated data is available. Our study examines which fine-tuning strategy is more appropriate in such resource-limited scenarios: bilingual fine-tuning on a small number of manually annotated examples; a monolingual fine-tuning that relies on data augmentation via paraphrasing; or a combination of both. We explore two data augmentation strategies, one based on paraphrasing language models and the other based on back translation. Experiments are conducted on multiple pre-trained language models in order to evaluate the suitability of both monolingual and multilingual language models. The different approaches have been evaluated on two scenarios: i) a real use case over procedures associated with municipal sports services; and ii) a simulated scenario from the multi-domain Facebook Multilingual Task-Oriented dataset. Results show that data augmentation based on back translation is beneficial for monolingual classifiers that rely on pre-trained monolingual language models. Combining bilingual fine-tuning of the multilingual model with the data augmented by back translation outperforms the monolingual model-based approaches for Basque.Este artículo explora varios enfoques para implementar clasificadores de intención bilingües (castellano y euskera) en casos en los que se dispone de un número limitado de datos anotados. Analizamos cuál es la estrategia de ajuste más adecuada en un contexto donde los recursos son escasos: ajuste bilingüe sobre un reducido número de ejemplos anotados manualmente; ajuste monolingüe basado en el aumento de datos mediante paráfrasis; o la combinación de ambos. Exploramos dos estrategias de aumento de datos, una basada en modelos lingüísticos de generación de paráfrasis y la otra en la traducción inversa. Además, los experimentos se realizan con múltiples modelos lingüísticos pre-entrenados para evaluar la idoneidad de los modelos lingüísticos monolingües y multilingües. Los distintos enfoques se han evaluado en dos escenarios: i) uno real, que corresponde a los trámites asociados a servicios deportivos municipales, y ii) otro simulado a partir del conjunto de datos multidominio Facebook Multilingual Task-Oriented Dataset. Los resultados muestran que para los clasificadores monolingües que se basan en modelos lingüísticos monolingües preentrenados, el aumento de datos basado en la traducción inversa es beneficioso. En el caso del euskera, la combinación del ajuste bilingüe del modelo multilingüe con los datos aumentados mediante la traducción inversa supera a los enfoques basados en modelos monolingües.This work has been partially funded by the Basque Government (ICL4LANG project, grant no. KK-2023/00094)

    Characteristics and predictors of death among 4035 consecutively hospitalized patients with COVID-19 in Spain

    No full text
    corecore